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摘要 : 【 目的 ] 热点 话题 具有 很 大 的 影响 力 , 针 对 热点 话题 及 其 情感 对 象 的 情感 倾向 进行 相关 研究 。[ 方法 ] 提出 


一 个 结合 话题 相关 性 的 主客 观 分 类 模型 ， 帮 助 抽取 与 热点 话题 相关 的 主观 微 博 ; 利用 基于 机 器 学 习 改 进 的 情感 
分 类 方法 对 抽取 博文 的 情感 极 性 进行 分 析 ; 通过 召回 率 、 准 确 率 、F 值 对 情感 分 类 效果 进行 详细 评估 。[ 结果 】 
实证 分 析 结 果 表 明 , 结合 话题 相关 性 有 效 提升 了 热点 话题 微 博 主客 观 分 类 和 情感 极 性 分 类 效果 , 其 中 F 值 分 别 
提升 7.4% 和 2.2%。[ 局 限 】 待 需 深 入 考虑 数据 的 分 布 状态 、 情 感 分 类 粒度 细 化 、 情 感 对 象 的 情感 趋势 变化 等 。 
【 结论 ] 考虑 话题 相关 性 ， 提 升 微 博 情感 分 类 的 效果 , 并 通过 抽取 热点 话题 中 关键 情感 对 象 的 情感 倾向 ， 为 微 博 


精准 营销 提供 相关 情报 信息 。 
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1 3 引 


随 着 网 络 技术 的 发 展 , 互联 网 早已 成 为 信息 传播 
的 一 个 重要 载体 ,， 微 博 、 博 客 等 社交 网 络 凭借 其 丰富 
服务 内 容 和 便捷 操作 特色 迅速 融入 人 们 的 生活 。 尤 其 
是 Web2.0 的 出 现 , 微 博 成 为 这 个 时 代 具 有 强大 影响 力 
的 产品 ， 它 实现 了 信息 的 快速 传播 与 交流 ， 对 整个 社 
会 的 政治 、 文 化 、 经 济 各 个 方面 也 产生 了 重大 影响 , 越 
来 越 多 的 企业 、 商 家 、 名 人 通过 微 博 扩 大 知名 度 、 提 
升 公众 形象 。 其 中 热点 话题 具有 极 大 的 影响 力 , 不 仅 
影响 着 虚拟 网 络 社会 中 各 种 事件 的 形成 与 发 展 , 同时 
也 影响 着 真实 人 类 社会 中 人 们 对 于 事件 的 看 法 和 判 
断 , 甚至 于 影响 着 政府 与 司法 机 构 对 事件 的 判决 。 所 
以 面 对 微 博 中 海量 的 文本 数据 , 快 而 准 地 抓 住 热 点 及 
焦点 , 提取 并 分 析 用 户 的 观点 和 情感 信息 ,对 企业 和 
政府 来 说 都 是 非常 有 意义 的 。 本 文 针 对 热点 话题 及 其 
情感 对 象 的 情感 倾向 进行 研究 ,为 微 博 精准 营销 提供 
情感 方面 的 相关 情报 信息 。 


2 相关 研究 
微 博 随 着 其 影响 力 和 用 户 数 量 的 不 断 扩大 ， 相关 


了 中 


研究 逐步 增加 ， 针对 微 博 情感 倾向 分 析 的 文章 也 日 益 
增多 ， 现 有 文献 所 用 到 的 方法 可 以 分 为 两 大 类 : 基于 
情感 词典 和 基于 机 器 学 习 的 方法 口 。 

(1) 基于 情感 词典 的 方法 通常 是 利用 词典 中 词话 
的 情感 极 性 和 强度 ,对 给 定 文本 进行 加 权 从 而 得 到 整 
个 文本 的 情感 倾向 , 目前 常见 的 中 文 情 感 词典 有 
HowNet 、NTUSD 傅 感 词典 、 学 生 窒 贬义 词典 和 
Tsinghua 褒贬 义 词 典 等 。 基 于 情感 词典 的 方法 不 需要 
训练 数据 且 可 以 应 用 于 很 多 领域 , 但 是 它 在 微 博 情感 
分 析 中 仍 有 以 下 缺陷 : 

情感 词典 的 获取 成 本 及 更 新 成 本 较 大 ， 柱 斌 等 中 基于 
微 博 表情 符号 提出 一 种 自动 构建 情感 词典 的 方法 , 但 这 种 
方法 只 能 应 用 于 对 微 博 情感 分 析 要 求 不 是 特别 高 的 场合 ; 
Bravo-Marquez 等 中 提出 以 监督 的 方式 从 表情 符号 自动 标注 
的 Twitter 和 已 有 词典 来 扩大 词典 , 其 中 使 用 点 互信 息 和 随 
机 梯度 下 降 法 建立 词语 和 情感 之 间 的 联系 ,实验 结果 表明 
提升 了 SentiWordNet( 英 文 情感 分 析 词 典 ) 的 性 能 ， 利 用 表情 
符号 自动 标注 的 数据 虽然 能 降低 成 本 ， 但 也 会 降低 方法 的 
有 效 性 。 

加 情感 词典 中 词语 的 覆盖 率 较 低 ， 使 得 微 博 中 一 些 新 
兴 词 汇 、 错 误 拼 写 词汇 、 缩 写 词汇 、 非 正式 词汇 等 难以 被 履 
盖 ， 宁 慧 等 出 将 多 个 词典 通过 合并 去 重 等 方式 构建 一 个 新 的 


通讯 作者 : 肖 敏 ，ORCID: 0000-0002-6508-3551，E-mail: 2279332915@qq.com。 
* 本 文系 四 川 大 学 中 央 高 校 基本 科研 业务 费 项 目 “ 基 于 中 文 微 博 的 负面 情绪 预警 研究 ”( 项 目 编号 : skqy201406) 的 研究 成 果 之 一 。 
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词典 , 但 微 博 中 词语 日 新 月 异 ,随时 会 出 现 新 的 具有 强烈 情 
感 的 词汇 ; Zhou 等 句 通 过 加 入 与 具体 领域 相关 的 意见 词汇 扩 
大 情感 词典 ， 在 56 个 话题 上 的 实验 结果 表明 可 以 提升 基于 
词典 的 分 类 器 的 准确 率 。 

图 词语 固定 的 情感 极 性 和 强度 使 得 该 方法 是 领域 无 关 
的 ， 而 情感 表达 时 通常 涉及 到 具体 的 对 象 或 领域 ， 在 不 同 的 
语 境 中 具有 不 同 的 情感 强度 ,情感 词典 的 领域 无 关 性 对 情 
感 分 类 的 影响 特别 大 ， 近 年 来 越 来 越 多 的 学 者 关注 于 解决 
这 个 问题 ， 如 Saif 等 引进 行 了 一 系列 研究 ， 提出 
SentiCircles 方法 ， 通 过 词语 的 共 现 模式 , 动态 更 新 应 用 在 具 
体 数据 集 时 情感 词典 中 词语 的 情感 分 数值 ， 这 个 方法 充分 
考虑 到 了 词语 出 现 的 语 境 , 能 提高 在 特定 领域 的 情感 分 类 
结果 ,但 是 在 交叉 领域 时 没有 明显 改善 ; 此 外 还 提出 从 
DBpedia 抽取 出 语义 关系 来 提高 词典 的 适应 性 书 ， 结果 表明 
有 效 提高 了 情感 分 类 的 准确 率 和 下 值 ; Zhao 等 09 结 合 语义 和 
先 验 情感 也 取得 了 较 好 的 性 能 。 

(2) 基于 机 器 学 习 的 方法 要 求 训练 数据 用 于 情感 
分 类 学 习 , 训练 数据 通常 是 人 工 标注 微 博 的 情感 倾向 
(积极 、 消 极 和 中 立 等 )， 目 前 常用 的 方法 有 文 持 向 量 
机 、 朴 素 贝 叶 斯 、 神 经 网 络 、 最 大 炉 等 ("4 其 中 支 
持 向 量 机 在 许多 文献 中 被 证 明 分 类 结果 较 好 。 基 于 机 
器 学 习 的 方法 依赖 于 训练 数据 ,因此 在 分 析 特 定 微 博 
话题 的 情感 时 往往 更 具有 优势 , 但 是 仍 有 以 下 缺陷 : 

人 训练 数据 获取 成 本 较 高 ， 利 用 文本 中 的 表情 符号 自 
动 标注 数据 是 一 种 常见 的 方法 ,但 是 标注 结果 仍然 有 待 
提高 。 

回 训练 数据 的 选择 对 情感 分 类 的 结果 影响 特别 大 ， 
Palguna 等 [3 分 析 了 Twitter 的 抽样 算法 并 提出 新 的 统计 指标 
来 量化 样本 的 代表 性 ; Song 等 09 认 为 微 博 中 的 情感 表达 反 
上 映 了 用 户 的 个 性 ,训练 数据 中 用 户 的 代表 性 也 是 一 个 值得 
关注 的 问题 ; 另外 训练 数据 集 的 大 小 对 结果 也 有 影响 5。 

@@ 训 练 数 据 的 平衡 性 对 于 分 类 器 也 会 产生 影响 ， 目 前 相 
关 研 究 多 是 通过 对 抽样 方法 进行 改进 来 解决 这 个 问题 6。 
在 基于 机 器 学 习 的 方法 用 于 微 博 话题 的 情感 分 析 时 ， 由 于 
基于 监督 学 习 的 方法 自身 是 领域 相关 的 , 很 多 之 前 的 研究 
往往 忽略 了 微 博 内 容 与 话题 的 相关 性 ， 从 而 使 得 部 分 噪声 
数据 降低 了 训练 结果 的 有 效 性 , 这 也 是 本 文 的 主要 切入 点 。 

这 两 类 方法 各 有 千秋 ,目前 亦 有 许多 人 研究 结合 两 
者 的 优势 来 研究 微 博 的 情感 倾向 号 9。 笔者 认为 , 在 研 


具有 优势 ,所 以 本 文 对 微 博 热 点 话题 的 情感 倾向 进行 
改进 研究 ,充分 考虑 噪声 数据 的 影响 , 即 博文 内 容 与 
话题 的 相关 性 强度 。 本 文 微 博 话 题 情感 倾向 研究 主要 
有 三 大 任务 : 文本 预 处 理 、 情感 信息 抽取 和 情感 分 类 。 
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首先 利用 文本 预 处 理 技术 对 热点 话题 微 博 进 行情 感 信 
息 (如 特征 词 、 情 感 对 象 ) 的 抽取 , 然后 提出 结合 话题 相 
关 性 的 主客 观 分 类 模型 来 帮助 抽取 与 热点 话题 相关 且 
主观 的 微 博 文本 集合 , 并 利用 改进 的 主观 微 博 情感 分 
类 方法 对 微 博 的 情感 倾向 进行 分 析 , 最 后 通过 召回 
率 、 准 确 率 、F 值 对 分 类 效果 进行 详细 评估 。 在 实证 
分 析 中 ,对 热点 话题 # 色 小 刚 炮 艇 影评 人 # 的 相关 情感 
对 象 的 情感 倾向 进行 研究 分 析 ,， 并 针对 结果 提出 一 些 
微 博 精准 营销 的 建议 。 


3 研究 设计 


3.1 数据 获取 及 文本 预 处 理 

为 了 研究 微 博 热点 话题 的 情感 倾向 ,， 首先 通过 网 
页 疏 虫 软件 获取 相关 数据 ,并 对 数据 进行 适当 的 预 处 
理 。 其 中 预 处 理 程序 包括 : 提取 微 博 中 表情 符号 ; 清洗 
无 意义 的 微 博文 本 , 包括 纯粹 的 转发 微 博 、 图 片 、 视 
频 、 网 址 、 表 情 、URL 地 址 等 ; 分 词 及 词性 标注 ; 过 
滤 停 用 词 等 。 
3.2 ”情感 信息 抽取 

(1) 特征 词 抽取 

抽取 特征 词 主要 是 从 文本 中 抽取 出 能 代表 文本 内 
容 且 对 其 分 类 起 决定 性 作用 的 词 , 并 计算 其 特征 权 
重 。 目前 常见 的 特征 抽取 方法 有 文档 频率 DF、 信息 增 
益 IG、 互 信息 MI 和 卡 方 检验 CHI 等 。 不 同 分 类 下 使 
用 到 的 特征 抽取 方法 有 所 差别 , 本 文 涉 及 到 三 种 分 类 ， 
包括 话题 相关 性 分 类 、 主 客观 文本 分 类 和 情感 极 性 分 
类 。 其 中 话题 相关 性 分 类 特征 包括 词 、 词 性 及 其 与 话 
题 的 相似 度 值 , 采用 基于 TF-IDF 改进 的 TF-IDF-SIM 
算法 确定 各 个 特征 词 的 权重 。 张 想 己 在 主客 观 分 类 常 
用 的 五 维 非 文本 特征 上 , 加 入 了 三 维新 的 特征 , 利用 
4 种 常用 分 类 器 (SVM、ANN 、NB 和 LR) 对 比 五 维特 
征 和 八 维特 征 (如 表 1 所 示 ) 的 效果 , 证 明 八 维特 征 效 
果 更 好 , 进一步 探究 表情 符号 特征 对 主客 观 分 类 的 影 
响 ， 发 现 表情 符号 特征 有 效 提升 了 分 类 效果 。 吴 青 
等 "构建 的 一 个 较为 完整 情感 极 性 词典 中 包括 基础 情 
感 词典 、 极 性 副词 词典 、 表 情 词 词典 、 微 博 新 间 词 典 
和 领域 词典 , 结合 文献 ， 笔者 认为 如 表 2 所 示 的 6 类 特 
征 项 是 微 博 中 最 常 出 现 的 情感 特征 ,并 采用 互信 息 
MI 抽取 , 其 中 表情 符号 的 存储 形式 为 “[ 文 字 ]”, 将 其 
提取 出 来 后 按照 其 在 HowNet 情感 词典 中 的 情感 进行 
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分 析 , 网络 用 语 是 从 网 站 上 人 工 收集 ; 在 情感 极 性 进 
行 分 类 时 , 在 表 2 的 基础 上 , 将 表情 符号 .情感 词 及 网 
络 用 语 分 为 正 负 两 类 , 并 加 入 转折 词 , 需要 注意 网 络 
用 语 的 情感 极 性 采用 人 工 标 注 的 方式 , 最 终 得 到 如 表 
3 所 示 的 10 类 特征 项 ， 并 采用 互信 息 MI 抽取 。 

表 1 八 维 主 客观 分 类 特征 0 
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表 3 情感 极 性 分 类 特征 


对 比 项 特征 取 值 
是 否 含有 情感 词 0, 1 
常用 的 五 是 否 含 有 感叹 号 0, 1 
维 分 类 是 否 含 有 问号 0,1 
村 征 是 否 含有 主张 词 0,1 
是 否 含有 程度 副词 0, 1 
本 
~y 张 想 09 加 是 否 含有 代词 或 名 词 0, 1 
CN 入 的 三 维 微 博 句子 数目 Real 
pi 新 特征 微 博 所 含 词 的 个 数 Real 
己 表 2 主客 观 文本 分 类 特征 
= 特征 类 型 ”特征 内 容 描述 特征 取 什 
3 ,器 情感 表情 ,pws i， 
Da 表情 符号 符号 个 数 。 新 浪 微 博 默 认 表 情 类 Real 
~ 
情感 词 ! Nt 
= 情感 记 pdt HowNet 情感 分 析 用 词语 集 。 “Real 
CN 网 络 用 语词 人 工 收集 的 网 络 用 语词 典 
本 图 A] 上 各 | AN 、 IN 一 | 
2 个 数 。 含 赛 义 词 和 贬义 计 we 
Ee 
= 是 否 情感 词 前 面 存在 否定 词 
| = 不 口 肯 1 
< 否定 词 ” 秀 定 间 (否定 词 23 个 , 来 源 是 HowNet 0,1 
人 ee 词典 ) 
9 
1 ] 日 不 今 
:二 程度 副词 是 信守 有 。 HowNet 词典 中 的 程度 词 词典 。 0, 1 
到 程度 副词 
GO 是 否 含有 “ 呀 "、“ 噶 ”、“ 呢 >、“ 吧 ”、 
下 《语气 词 。 “ 啊 " 等 25 个 语气 记 2 


(2) 情感 对 象 抽取 与 合并 

情感 对 象 , 即 评价 对 象 , 是 指 在 主观 句 中 情感 词 
或 短语 修饰 的 词 ,可 以 是 个 人 、 组 织 、 事 件 和 产品 等 
对 象 。 情 感 对 象 的 抽取 及 其 情感 倾向 判断 有 助 于 微 博 
精准 营销 ， 目 前 微 博 情 感 对 象 抽取 方法 有 基于 规则 的 
方法 、 基 于 句法 分 析 的 方法 和 序列 标注 模型 的 方法 等 ， 
其 中 基于 规则 的 方法 比较 简单 且 效 率 较 高 , 故 采 用 此 
方法 进行 评价 对 象 抽取 。 在 评价 对 象 中 , 名 词 、 名 词 
短语 及 话题 标签 (Hashtag) 占 主要 部 分 如果 有 具体 名 
词 或 名 词 短 语 ， 则 将 其 作为 评价 对 象 , 否则 将 话题 标 
签 作为 评价 对 象 。 然 而 抽取 出 的 评价 对 象 往往 存在 大 
量 的 相似 词汇 ， 如 “冯小刚 * 和 “ 汉 导 ”表示 相同 的 意思 ， 
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| 特征 
地 征 类 型 村 征 内 容 述 
特征 类 特征 内 容 描述 
正面 表情 。 ”正面 表情 新 浪 微 博 点 本 
符号 符号 个 数 认 表 情 类 
负面 表情 ”负面 表情 新 浪 微 博 默 本 
符号 符号 个 数 认 表情 类 
正面 情感 词 HowNet 中 的 
FE 面 情 局 
正面 情感 词 个 数 正面 情感 词 Real 
负面 情感 词 HowNet 中 的 
良 威 J 
RN. 负面 情感 
正面 网 络 “正面 网 络 用 语 ” 鹿 义 的 网 络 
用 语 词 个 数 用 语词 典 
负面 网 络 。“” 负 面 网 络 用 语 ” 贬义 的 网 络 a 
用 语 词 个 数 用 语词 典 
| 是 否 情感 词 前 本 
_ 是 否 出 现 和 人 由 
香 定 启 2 存在 否定 词 (情感 0, 1 
加 词 前 3 个 词 之 内 ) 
是 否 含有 HowNet 词典 中 的 
量度 副词 SE ee 0,1 
程度 剧 轴 程度 副词 程度 词 词典 
加 目 . 不 今 “0 环 ” “ 啦 ” “ 呢 ? 
是 否 含有 、“ 啦 ”、 5 
人 语气 记 吧 ”、“ 呵 "等 25 个 
本 是 否 含有 “但 是 ”"、“ 可 是 ”"、“ 然 
本 i 区 i 0,1 
“mE 转折 误 而 "等 7 个 常用 记 
故 本 文采 用 基于 相似 度 计 算 和 词语 覆盖 率 的 K-means 


聚 类 算法 对 评价 对 象 进 行 合并 。 
3.3 ”结合 话题 相关 性 的 主客 观 分 类 模型 

在 研究 话题 情感 倾向 之 前 , 需要 抽取 与 话题 相关 
且 主 观 的 博文 , 因为 主观 文本 内 容 基 于 断言 或 评论 且 
带 有 个 人 情感 和 意向 的 抒发 , 而 客观 文本 内 容 基 于 事 
实 描述 且 不 带 有 个 人 的 好 恶 和 偏见 。 本 文 提 出 一 个 结 
合 话题 相关 性 的 主客 观 分 类 模型 ， 将 问题 分 解 为 两 个 
并 行 子 问 题 ， 即 是 否 相 关 和 是 否 主 观 , 然后 利用 
Logistic 回归 进行 归并 ,从 而 得 到 与 热点 话题 相关 的 
主观 博文 。 结 合 话题 相关 性 的 主客 观 分 类 模型 如 图 1 
所 示 。 

从 图 1 可 以 看 出 , 基于 话题 相关 性 的 主客 观 分 类 
模型 包含 两 个 子 模型 ， 即 话题 相关 性 分 类 子 模型 和 主 
客观 分 类 子 模型 。 两 个 子 模型 的 主要 流程 均 包括 特征 
项 抽取 、 特 征 和 矩阵 建 立 、 样 本 序列 建立 和 模型 学 习 4 
个 阶段 , 其 中 样本 序列 建立 阶段 均 使 用 到 人 工 标 注 方 
法 , 模型 学 习 阶 段 均 使 用 了 SVM 算法 。 
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输入 : 所 有 话题 微 博 集合 S 


pp 


性 特征 和 矩阵 Wr 
人 工 标注 是 否 相 关 
相关 性 微 


填 样 本 序列 
{Wr, 相关 性 标记 } 


SVM 算法 学 习 
话题 相关 性 


x1- 博 文 是 否 与 话题 相关 


Logistic 


回归 : X=(x1,x2) 一 Y (Y 表 示 当 前 博文 是 否 与 话题 相关 日 许 


主客 观 文 本 特征 


aM | i | 

抽取 主客 观 特征 项 1 网 络 用 语 | 

转化 于 

| 
人 工 标 注 是 否 主观 


主客 观 微 博 样 本 序列 
{Ws, 主观 性 标记 } 


SVM 算 法 学 习 
主客 观 文本 分 类 子 模型 


x2- 博 文 是 否 为 主观 文本 


输出 :话题 相关 


主观 的 微 博 集合 S* 


疆 合 


图 1 结合 话题 相关 ， 

特征 和 矩阵 建立 阶段 ， 话 题 相 关 性 子 模型 使 用 的 是 
TF-IDF-SIM 法 ,主客 观 分 类 子 模型 中 使 用 的 是 互信 
息 MI 法 。 

(1) TF-IDF-SIM 法 , 是 基于 TF-IDF 改进 的 算法 ， 
综合 考虑 一 个 术语 对 特定 话题 语料库 的 重要 程度 及 与 
特定 话题 的 相关 程度 ， 从 而 为 这 个 术语 赋予 一 个 综合 
权重 ,其 中 TF(Term Frequency) 表 示 词 频 , IDF(Inverse 
Document Frequency) 表 示 反 文档 频率 ，SIM 表示 术语 
与 话题 词 的 最 大 相似 度 值 。 在 文本 特征 表示 时 , 每 条 
博文 D; 都 可 以 用 博文 中 词 的 特征 来 表示 ,这 些 词 的 
特征 及 其 权重 就 构成 “空间 ”中 的 向 量 : 

Wj, Wj WW, ;) 


(1) 


其 中 ， 现 ;为 词 条 ; 在 博文 中 的 权重 ,表示 为 
W. ;= 7F; ;x IDF, x SIM, (2) 
IDF., = log 力 (3) 
LU 


其 中 ，7E; ;表示 词 条 i 在 博文 D; 中 的 出 现 次 数 ; 
IDF 是 反 文 档 频 率 系数 ，N 表示 语料库 中 所 有 的 博 
文 条 数 ，n, 表示 语料库 中 出 现 过 词 条 i 的 博文 条 数 ; 
STM 为 词 条 i 与 当前 话题 词 的 相似 度 值 ， 相 似 度 算法 


生 的 主客 观 分 类 模型 
如 下 。 


输入 : 当前 词 w 和 当前 热点 话题 词 hotTopic; 

输出 : 词 w 与 当前 热点 话题 词 的 最 大 相似 度 sim(w, hotTopic); 

中 记 sim(w, hotTopic)=0; 

@) 将 hotTopic 分 词 得 到 hotTopicSet={H1, H2，…, Hn}; 

@ 对 于 每 一 个 H ij， 如 果 w=H, 则 sim(w，hotTopic)=1， 转 向 步 
了 又 @); 否则 转向 步 又 @@); 

@@ 计 算 sim(w,，H_i)// 利 用 基于 同义词 词 林 的 词语 相似 度 计算 算 
法 PEI 得 到 

如 果 sim(w, H iD> sim(w，hotTopic)， 则 更 新 sim(w，hotTopic)= 
sim(w, H 1); 

@@ 算 法 结束 。 

(2) 互信 息 MI 法。 将 表 2 中 的 表情 符号 、 情 感 词 

等 6 类 情感 特征 抽取 出 来 后 , 分别 计算 它们 与 主观 类 
和 客观 类 文本 的 互信 息 (MD 。 互 信息 (Mutual 
Information) 是 信息 论 里 一 种 有 用 的 信息 度量 , 它 是 指 
两 个 事件 集合 之 间 的 相关 性 , 通过 公式 (4) 计 算 ， 其 意 
义 是 由 于 事件 A 发 生 与 事件 B 发 生 相 关联 而 提供 的 信 
自 


vv 


量 。 
P(AB 
Bd 人 
其 中 ，PC4 有 表示 事件 A 和 事件 B 同时 发 生 的 概 
率 , P(4) 表 示 事 件 A 发 生 的 概率 , P(B) 表 示 事 件 B 发 生 
的 概率 。 在 处 理 分 类 问题 提取 特征 的 时 候 用 互信 息 来 


1(4,B)= 10g, 
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衡量 某 个 特征 项 和 特定 类 别 的 相关 性 ,如 果 信 息 量 越 
大 , 那么 特征 和 这 个 类 别 的 相关 性 越 大 , 反之 亦 然 。 互 
信息 法 用 于 特征 提取 的 基本 流程 是 : 假设 特征 项 为 
主观 类 是 c ,客观 类 为 c,, 计算 的 结果 为 MI(t,c) 和 
MI(t,c,), 定义 一 个 闪 值 9, 假如 特征 项 满足 公式 (5)， 
则 将 该 特征 项 抽取 出 来 。 
[Mi(t,c)—MI(t,cs)|>0 (5) 

最 后 通过 Logistic 回归 来 组 合 两 个 子 模型 从 而 
构建 一 个 结合 话题 相关 性 的 主客 观 分 类 模型 。 从 上 述 
分 析 可 看 出 , 热点 话题 主客 观 分 类 问题 的 本 质 是 寻找 
一 个 随机 变量 了 与 随机 向 量 卫 = (xl,x2) 之 间 的 函数 
关系 , 其 中 了 代表 当前 言论 是 否 为 与 话题 相关 且 主 观 
性 的 言论 ;xt 为 博文 是 否 与 话题 相关 的 自 变 量 、x2 为 
博文 是 否 为 主观 文本 的 自 变 量 。 因 标记 (xlx2) 以 及 分 
类 结果 了 都 为 离散 型 数据 , 选用 Logistic 回归 分 析 解 
决 上 述 的 问题 。 
3.4 基于 机 器 学 习 改 进 的 主观 微 博 情 感 分 类 

得 到 与 话题 相关 的 主观 文本 后 , 需要 对 主观 文本 
进行 情感 倾向 分 类 ,并 根据 抽取 出 的 评价 对 象 判断 每 
个 评价 对 象 的 情感 倾向 。 目 前 针对 中 文 微 博 的 情感 分 
类 方法 可 以 分 为 两 类 : 基于 语义 词典 的 情感 计算 法 ; 
基于 机 器 学 习 的 情感 分 类 法 。 微 博文 本 情感 分 析 领 域 
还 没有 一 部 通用 且 完 整 的 情感 词典 ， 同 时 受 语 境 迁 移 
的 影响 , 现 有 大 多 数 情感 词典 在 微 博 情感 分 析 中 都 存 
在 情感 覆盖 面 不 足 、 分 类 效果 差 的 缺点 王 悦 。 故 本 文 
采用 基于 机 器 学 习 的 方法 , 使 用 情感 词 、 表 情 符号 、 
网 络 用 语 等 作为 分 类 特征 , 通过 分 类 算法 训练 一 个 分 
类 器 , 将 情感 倾向 分 为 正面 倾向 和 负面 倾向 这 两 类 。 

本 文 改进 了 以 往 的 主观 微 博 情 感 分 类 特征 。 之 前 
的 许多 研究 提出 将 能 表达 情感 的 词汇 (如 名 词 、 形 容 
词 、 副 词 、 动 词 等 ) 作 为 特征 项 , 但 是 未 将 非 规 范文 本 
如 表情 符号 、 网 络 用 语 等 考虑 进去 , 而 这 些 文本 又 是 
互联 网 时 代 人 们 表达 情感 的 重要 因素 。 采 用 如 表 3 所 
示 的 情感 极 性 分 类 特征 ， 其 中 很 多 与 主客 观 文本 分 类 
的 特征 相似 , 但 把 特征 项 : 表情 符号 、 情 感 词 、 网 络 用 
语词 典 细 分 为 正面 和 负面 两 个 方面 , 并且 加 入 转折 
词 。 因 为 朴素 贝 叶 斯 算法 对 文本 的 适应 性 较 强 ,， 对 正 
面 和 负面 倾向 分 类 的 整体 效果 稳定 ， 所 以 利用 朴素 贝 
叶 斯 算法 构建 主观 微 博 情 感 分 类 器 。 
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4 实证 分 析 


4.1 微 博 数据 获取 与 预 处理 

使 用 火车 采集 器 获取 新 浪 微 博 热点 话题 # 汉 小 刚 
炮 友 影评 人 # 中 的 数据 总 共 91 361 条 , 对 文本 进行 预 处 
理 后 剩 下 88 571 条 博文 ,将 其 随机 拆 分 为 训练 集 
(68 889 条 ) 和 测试 集 (19 682 条 ), 训练 集 是 测试 集 的 3.5 
倍 。 然 后 使 用 人 工 标注 法 对 微 博文 本 进行 标注 ,请 三 
位 专家 分 别 从 相关 性 上 将 博文 标注 为 相关 或 无 关 ， 从 
情感 极 性 上 标注 为 客观 、 积 极 或 消极 三 类 。 人 工 标注 
前 给 每 位 专家 一 个 小 册子 , 用 于 向 专家 解释 相关 分 类 
的 概念 ,方便 专家 参考 ， 比 如 积极 文本 里 通常 会 包含 
用 户 对 事件 的 支持 、 看 好 的 态度 等 。 各 专家 相互 同意 
度 均 超过 80%， 这 表明 通过 了 信和 度 检验 ,最 后 根据 频 
数 最 大 法 ( 即 服从 大 多 数 人 的 意见 ) 得 到 最 终 分 类 结 
果 。 分 类 标注 结果 如 表 4 所 示 。 

表 4 分 类 标记 结果 (单位 :条 ) 


Pp 


Ly 


情感 ”主观 且 相 关 其 余 
极 性 正面 负面 主观 且 无 关 客观 且 相 关 ”客观 且 无 关 
38 022 24 598 10 596 11 071 4 284 
合计 
62 620 10 596 15 355 
4.2 ”热点 话题 的 主客 观 分 类 


根据 2.3 节 中 的 研究 方法 提取 特征 词 及 和 矩阵, 在 
WEKA 平台 使 用 SVM 分 类 器 对 话题 相关 性 分 类 子 模 
型 和 主客 观 文本 分 类 子 模型 分 别 进行 标注 ， 再 利用 
Logistic 算法 将 两 重 标注 统一 在 一 个 模型 中 , 结果 如 
表 5 所 示 。 


表 5 主客 观 文本 分 类 结果 


准确 率 召回 率 F 值 
(%) (%)  (%) 


话题 相关 53 356 82.5 89.3 85.8 
主观 文本 、 、 
SVM 话题 无 关 10127 76.7 93.3 84.2 


分 类 话题 相关 15365 68.5 73.8 71.1 
客观 文本 
话题 无 关 9723 53.9 55.6 54.7 


二 和 话题 相关 
Logistic 回归 且 主 观 文本 53 285 ”83.6 89.0 86.2 


对 比 项 数量 /条 


可 以 看 出 , 在 话题 相关 性 分 类 时 ，SVM 分 类 器 对 
主观 文本 比 客 观 文本 的 分 类 效果 更 好 ,其 准确 率 、 召 
回 率 、F 值 均 比 客观 文本 高 ,其 “话题 相关 ”类 别 的 下 
值 比 客观 文本 高 14.7%， 表明 对 于 被 判断 为 客观 的 文 


本 ,分 类 器 更 容易 将 其 判别 为 与 话题 无 关 , 之 后 的 研 
究 可 以 进一步 加 强 对 客观 文本 的 相关 性 识别 的 探索 。 
利用 Logistic 回归 模型 得 到 的 话题 相关 且 主 观 的 文本 ， 
准确 率 提高 了 1.1%, F 值 提 高 了 0.4%, 说 明 Logistic 
回归 模型 在 一 定 程 度 上 提升 了 热点 话题 的 主客 观 分 类 
问题 的 效果 , 但 是 提升 效果 还 不 是 很 明显 。 

此 外 , 研究 是 否 加 入 话题 相关 性 分 类 子 模型 对 热 
点 话题 主客 观 文 本 分 类 的 影响 , 结果 如 表 6 所 示 。 可 
以 发 现 , 引用 话题 相关 性 分 类 子 模型 对 热点 话题 的 主 
客观 文本 分 类 效果 更 好 , 总 体 F 值 提 高 了 7.4%, 这 说 
明 话 题 数据 中 与 热点 话题 无 关 的 言论 文本 影响 了 主客 
观 文本 分 类 的 效果 , 通过 结合 话题 相关 性 较 大 程度 提 
高 了 主客 观 分 类 效果 。 
表 6 是否 加 入 话题 相关 性 分 类 子 模型 对 热点 话题 主 

客观 文本 分 类 的 影响 


主观 (%) 客观 (%) 总 体 
对 比 项 (%) 
准确 率 召回 率 F 值 准确 率 召回 率 F 值 F 值 


未 加 话题 

相关 性 分 76.8 94.1 84.6 66.6 42.1 51.6 72.3 
类 子 模型 
加 入 话题 
相关 性 分 88.2 92.3 90.2 81.5 53.8 66.8 79.7 
类 子 模型 


4.3 ”主观 微 博 的 情感 倾向 分 类 
根据 3.4 节 中 基于 机 器 学 习 改 进 的 主观 微 博 情 感 
分 类 的 方法 , 对 抽取 出 的 与 话题 相关 日 主观 的 微 博 的 
情感 极 性 进行 判断 ,并 将 改进 前 和 改进 后 的 结果 进行 
比较 ， 如 表 7 所 示 。 
表 7 话题 情感 倾向 分 类 结果 对 比 


对 比 项 情感 倾向 ”数量 (条 ) ”准确 率 (%) 召回 率 (%) F 值 (%) 
” ，、、。 正面 倾向 ”34 479 80.5 87.6 83.9 
改进 前 
负面 倾向 ”18 806 73.2 79.1 76.0 
、 E 面 倾向 ”33 941 84.3 90.3 87.2 
改进 后 
负面 倾向 ”19 344 79.8 77.6 78.7 


从 表 7 看 出 加 入 正 负 网 络 用语 、 正 负 表情 符号 等 
特征 词 对 分 类 效果 有 所 提升 ,正面 倾向 的 下 值 提高 了 
3.3%, 负面 倾向 的 值 提高 了 2.7%, 另外 在 改进 前 和 
改进 后 , 正面 倾向 的 F 值 均 比 负面 倾向 的 F 值 高 , 究 其 
原因 , 可 能 是 由 于 数据 自身 的 不 平衡 性 导致 ,数据 集中 
正面 倾向 的 数量 较 大 程度 大 于 负面 倾向 的 数量 。 


此 外 还 研究 了 是 否 加 入 热点 话题 的 主客 观 分 类 模 

型 对 情感 倾向 分 类 的 影响 , 结果 如 表 8 所 示 。 

表 8 是 否 加 入 结合 话题 相关 性 的 主客 观 分 类 模型 对 情 
感 倾向 分 类 的 影响 


正面 (%) 负面 (%) 总 体 
准确 率 召回 率 F 值 准确 率 召回 率 F 值 F 值 


对 比 项 


未 加 结合 话题 
相关 性 的 主客 81.5 92 86.4 67.9 82.8 74.6 81.7 
观 分 类 模型 


加 入 结合 话题 


相关 性 的 主 
观 分 类 模型 


84.3 90.3 87.2 79.8 77.6 78.7 83.9 


加 入 结合 话题 相关 性 的 主客 观 文本 分 类 模型 对 情 
感 倾向 分 类 的 效果 有 所 提升 ,， 总体 F 值 提高 了 2.2%， 
说 明 通 过 筛选 出 的 相关 且 主 观 文本 来 进行 情感 分 类 ， 
能 够 大 大 降低 分 类 器 的 负担 ,从 而 提供 更 精确 的 分 类 
效果 。 
4.4 情感 对 象 抽取 及 情感 倾向 判断 

根据 3.2 节 的 方法 抽取 与 合并 情感 对 象 , 并 对 评 
价 对 象 讨 论 最 多 的 前 5 名 进行 情感 倾向 判断 ,如 表 9 
所 示 。 


表 9 情感 对 象 及 其 情感 倾向 

对 比 项 Hashtag ”冯小刚 私人 订 制 小 故事 葛优 
面 情感 数量 (条 ) 13 526 7158 2 330 417 532 
面 情感 数量 (条 ) 7945 4415 3 052 508 365 


沪 日 


从 表 9 可 以 看 出 ，Hashtag(# 汉 小 刚 炮 艇 影评 从 
的 正面 情感 数量 大 约 是 负面 的 1.7 倍 , 说 明 新 浪 微 博 
用 户 对 于 这 个 事件 的 支持 数量 是 远大 于 反对 数量 的 。 
对 评价 对 象 “ 冯 小 刚 ” 的 正面 情感 数量 大 约 是 负面 的 
1.6 倍 ， 而 “小 故事 "和 “万 优 ”" 是 电影 “私人 订 制 ”里 的 情 
节 和 演员 , 用 户 对 这 部 电影 和 情节 本 身 的 负面 情感 较 
多 。 说 明 用 户 对 电影 的 负面 情绪 并 没有 影响 到 大 家 对 
冯小刚 的 喜爱 和 这 次 事件 的 支持 ; 从 总 体 的 情感 倾向 
数量 上 来 看 , 用 户 对 话题 的 讨论 还 是 更 集中 在 对 热点 
话题 本 身 和 冯小刚 这 两 个 对 象 上 。 

从 微 博 营 销 的 角度 ,电影 制 片 商 等 企业 可 以 得 到 
用 户 态度 、 仿 好 反馈 , 并 可 以 针对 有 负面 评价 的 对 象 
如 私人 订 制 等 , 在 后 期 宣传 上 积极 泻 染 电 影 的 立意 及 
电影 背后 的 内 涵 ， 让 观众 了 解 更 多 有 关 电 影 正面 的 内 
容 , 从 而 进行 与 论 引 导 。 政 府 部 门 也 可 以 在 出 现 大 量 
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的 负面 信息 之 后 ,进行 重点 监督 .排除 敏感 信息 ， 从 受 
关注 最 多 的 几 个 评价 对 象 着 手 ， 制 定 与 论 引导 与 控制 
的 相关 策略 。 


S 结 语 


针对 热点 话题 及 其 情感 对 象 的 情感 倾向 进行 相关 
研究 , 提出 一 个 结合 话题 相关 性 的 主客 观 分 类 模型 ， 
帮助 抽取 与 热点 话题 相关 的 主观 微 博 ; 利用 改进 的 情 
感 分 类 方法 对 抽取 博文 的 情感 倾向 进行 分 析 ; 通过 召 
回 率 、 准 确 率 、F 值 对 情感 分 类 效果 进行 详细 评估 。 
实证 结果 表明 : 基于 话题 相关 性 的 主客 观 分 类 模型 ， 
有 助 于 热点 话题 的 主客 观 分 类 , 使 得 微 博 情感 分 类 效 
果 更 好 ; 通过 抽取 热点 话题 中 关键 情感 对 象 的 情感 倾 
向 , 能 为 微 博 精 准 营销 提供 相关 情报 信息 。 

主要 有 以 下 创新 : 抽取 了 话题 中 的 评价 对 象 并 进 
行情 感 倾向 判断 ， 比 单纯 的 情感 分 类 理论 和 技术 探讨 
更 具有 价值 ; 提出 结合 话题 相关 性 的 主客 观 分 类 模型 ， 
使 得 主客 观 文本 分 类 效果 有 所 提升 ,从 而 也 提升 了 情 
感 极 性 的 分 类 效果 , 究 其 原因 ,可 能 是 考虑 到 相关 性 
之 后 降低 了 噪声 数据 产生 的 影响 ; 提出 改进 的 情感 分 
类 方法 , 在 文本 处 理 时 考虑 了 非 规范 性 文本 如 表情 符 
号 等 , 结果 证 明了 该 方法 和 模型 的 有 效 性 和 实用 性 。 

仍 存在 一 些 值得 改进 之 处 : 样本 分 布 的 不 均匀 可 
能 会 影响 分 类 的 效果 , 但 由 于 本 文 研 究 的 是 一 个 话题 
内 所 有 的 微 博 数据 , 所 以 没有 对 样本 分 布 进 行 调整 ; 
对 情感 倾向 的 分 类 仅 分 为 正 负 两 面 ,实际 应 用 中 更 需 
要 将 情感 类 型 的 粒度 细 化 ; 缺乏 对 情感 对 象 进行 情感 
趋势 分 析 。 在 未 来 的 研究 中 , 可 以 针对 这 些 问 题 进行 
深入 研究 。 
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Sentiment Analysis of Trending Topics Based on Relevance 


He Yue Xiao Min Zhang Yue 
(Business School, Sichuan University, Chengdu 610064, China) 


Abstract: [Objective] This paper tries to effectively analyze the sentiment of trending topics with machine learning 
techniques. [Methods] First, we proposed a new classification model based on trending topic relevance to extract 
subjective microblog posts. Second, we analyzed sentiment tendency with an improved machine learning method. 
[Results] We found that the modified model improved the subjective-objective classification of trending topics. The 
F-measures were increased by 7.4% and 2.2% respectively. [Limitations] More research is needed to study the 
distribution of data, the particle of emotion and the changes of sentiment trends. [Conclusions] Adding topic relevance 
factor to the model could improve the performance of sentiment analysis of micro-blog posts, and extract tendency of 
key objects from the trending topics, which provides intelligence for micro-blog marketing. 
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